Transformer
Όλα τα μοντέρνα LLMs βασίζονται στο transformer architecture, το οποίο εισήγαγε η google μέσω του papper ‘Attention Is All You Need’, το 2017. Ο σκοπός αυτής της αρχιτεκτονικής ήταν οι μεταφράσεις.
Αυτή η αρχιτεκτονική αποτελείται από δύο υπομονάδες, τον encoder και τον decoder.
Ο encoder επεξεργάζεται το input και το κάνει encode σε κάτι αριθμητικό ή σε διανύσματα. Αυτή η κωδικοποίηση πιάνει το contextual information του κειμένου.
Ο decoder κάνει ακριβώς την αντίθετη δουλειά. Το self-attention του μοντέλου, του επιτρέπει να δίνει διαφορετική έμφαση σε κάθε λέξη, ανάλογα με την σημασία της στο κείμενο.
GPT-3
Αν και βασίστηκε στο αρχικό άρθρο της google, έκοψε τον encoder.
Ο μοναδικός σκοπός του μοντέλου είναι η πρόβλεψη του επόμενου token. Αυτήν την δουλειά την κάνει ο decoder.
Το gpt3 δεν περιλαμβάνει encoder, διότι δεν στόχευε σε μεταφράσεις, αλλά σε γενική πρόβλεψη token.
Έτσι απλοποιήθηκε η αρχιτεκτονική κάνοντας το scaling της πολύ πιο εύκολο.
Data
Ένα neural network βασίζεται σε γραμμική άλγεβρα. Άρα τα δεδομένα που του δίνουμε πρέπει να μπορούν να αξιοποιηθούν.
Έτσι το κείμενο μετατρέπεται σε vector format, μέσω μιας διαδικασίας που λέγεται embedding.
Πρώτο βήμα στην επεξεργασία κειμένου είναι η δουλειά ενός tokenizer. Αυτός απλά απομονώνει την κάθε λέξη από το κείμενο. Για κάθε ξεχωριστή λέξη δίνουμε ένα συγκεκριμένο ID, το οποίο θα την αντιπροσωπεύει.
Γλωσσάρι
-
Zero-shot learning: Ικανότητα να ανταποκρίνεται ένα μοντέλο σε tasks για τα οποία δεν έχει δει αντίστοιχα παραδείγματα.
-
Dimensionality: Διαστάσεις των vectors που δημιουργούνται κατά την διαδικασία του embbeding.